# -*- coding: UTF-8 -*-
'''
Created on 6 de Dez de 2011
@author: Francisco do Ó
@number: 5202
'''

from BeautifulSoup import BeautifulSoup #Importa o parser HTML
import urllib2 #importa a biblioteca para abrir a página 

results = [] #Lista que terá os resultados obtidos

'''
@param url
Recebe o URL da página a abrir
Analisa-a e retira os dados pedidos
'''
def parseThis(url):
    global results
    opener = urllib2.build_opener()
    url_opener = opener.open(url)
    page = url_opener.read()
    
    #obtém todo o código HTML da página
    soup = BeautifulSoup(page)
    #Tags que deverá procurar
    h1 = soup.findAll('h1')
    h2 = soup.findAll('h2') 
    h3 = soup.findAll('h3') 
    div = soup.findAll('div') 
    p = soup.findAll('p') 
    ul = soup.findAll('ul') 
    ol = soup.findAll('ol') 
    #Devolve o número de ocorrências de cada tag
    results.append('Numero de h1:  ' + str(len(h1)))
    results.append('Numero de h2:  '+ str(len(h2)))
    results.append('Numero de h3:  ' + str(len(h3)))
    results.append('Numero de div:  ' + str(len(div)))
    results.append('Numero de p:  ' + str(len(p)))
    results.append('Numero de ul:  ' + str(len(ul)))
    results.append('Numero de ol:  ' + str(len(ol)))  
    return results


